home *** CD-ROM | disk | FTP | other *** search
/ ftp.cs.arizona.edu / ftp.cs.arizona.edu.tar / ftp.cs.arizona.edu / icon / newsgrp / group98c.txt / 000022_icon-group-sender _Mon Sep 14 08:24:36 1998.msg < prev    next >
Internet Message Format  |  2000-09-20  |  14KB

  1. Return-Path: <icon-group-sender>
  2. Received: from kingfisher.CS.Arizona.EDU (kingfisher.CS.Arizona.EDU [192.12.69.239])
  3.     by baskerville.CS.Arizona.EDU (8.9.1a/8.9.1) with SMTP id IAA06355
  4.     for <icon-group-addresses@baskerville.CS.Arizona.EDU>; Mon, 14 Sep 1998 08:24:35 -0700 (MST)
  5. Received: by kingfisher.CS.Arizona.EDU (5.65v4.0/1.1.8.2/08Nov94-0446PM)
  6.     id AA01514; Mon, 14 Sep 1998 08:24:08 -0700
  7. From: gep2@computek.net
  8. Date: Sat, 12 Sep 1998 14:19:41 -0500 (CDT)
  9. Message-Id: <199809121919.OAA18685@mail.cmpu.net>
  10. Mime-Version: 1.0
  11. Content-Type: text/plain
  12. Content-Transfer-Encoding: 7bit
  13. Subject: Re:  Unicode support or support for non-Ascii based character
  14.     manipulation?
  15. To: icon-group@optima.CS.Arizona.EDU
  16. X-Mailer: SPRY Mail Version: 04.00.06.17
  17. Content-Transfer-Encoding: 7bit
  18. Content-Transfer-Encoding: 7bit
  19. Errors-To: icon-group-errors@optima.CS.Arizona.EDU
  20. Content-Transfer-Encoding: 7bit
  21. Status: RO
  22.  
  23. >> Okay, I don't dispute that this move is happening but personally I still 
  24. don't very much like it.  The fact is that (at least here in the Western 
  25. Hemisphere, where probably most of the world's computers are used) an eight-bit 
  26. byte is already quite sufficient for most purposes, and doubling it comes at a 
  27. cost in complexity and storage (RAM, disk, tape, whatever) which is simply very, 
  28. very hard to justify on any genuine economic basis.
  29.  
  30. > This is a fictitious problem.
  31.  
  32. Which?  Most of the points there are not subject to dispute, at least for most 
  33. of us here in the USA.  
  34.  
  35.   a)  That I don't very much like it?
  36.  
  37.   b)  That most of the world's computers are used in the Western Hemisphere?
  38.  
  39.   c)  That an eight-bit byte is quite sufficient HERE for most (I didn't say 
  40. ALL) purposes?
  41.  
  42.   d)  That doubling it to a sixteen-bit byte comes at a cost (I didn't say a 
  43. HUGE cost, but it IS a cost) in complexity and storage?
  44.  
  45.   e)  That such a cost is hard to justify (again, for MOST purposes, in 
  46. particular for business and most typical home use) given the limited or only 
  47. specialized need for a bunch of exotic characters that probably 95% of the 
  48. Western world's PC users are likely to never use?
  49.  
  50. > UNIX systems at least...
  51.  
  52. ...which represent something like 4% of machines sold, and it looks like NT 5.0 
  53. will continue to erode corporate use of Unix...
  54.  
  55. > ...support UTF-8, which is a compression method
  56. described in ISO 10646 and the Unicode book that has the property
  57. that ASCII characters *still* occupy exactly one byte each.  
  58.  
  59. Okay, but this still results in more complex file formats and the need for 
  60. suitable compression and decompression routines, and/or the use of mixed-mode 
  61. processing in handling strings and/or doubling storage requirements for such 
  62. strings while they are in memory (and thus obsoleting a lot of existing tools, 
  63. library routines, and other programming).  We've already talked about some of 
  64. the issues regarding Icon implementation, and while probably not insurmountable 
  65. (indeed, I think that a fully Unicode-supporting Icon implementation... NOT to 
  66. replace the normal one!!... might be a very popular tool among those people who 
  67. for whatever reason decide to use Unicode.)
  68.  
  69. > When I use getwc() on this system, it decodes UTF-8 files and gives me
  70. ISO 10646 wide characters internally.
  71.  
  72. Which means I presume that those characters internally take twice the storage 
  73. they would otherwise.  Thus at a cost of storage, and with the disadvantage that 
  74. (barring some kind of new machine architecture at least where there is a NATIVE 
  75. 16-byte byte I suppose, without direct addressability to address increments 
  76. smaller than that) programming must change to account for the fact that all 
  77. bytes are now byte PAIRS and that alignment issues suddenly become of prime 
  78. importance.
  79.  
  80. >>    If other countries have more difficult (or huge) character sets,
  81.     that is (while a fact of life) simply an inherent disadvantage
  82.     of their culture (and note that I'm not intending that as a slam
  83.     or value judgement, it just IS the way it is), and I don't see a
  84.     terribly convincing argument why the other countries (without
  85.     that disadvantage) ought to pay the price too, just in order to
  86.     artificially level the playing field.
  87.     
  88. > Many people _within_ Weestern Europe do not have the luxury of dealing
  89. with only a single language.  
  90.  
  91. Sure, but I'll point out that the great majority of them (and here I'm talking 
  92. about typical business and home users, I'm not talking about academic types who 
  93. ABSOLUTELY have to have a whole assortment of Armenian, Sanskrit and other 
  94. highly specialized fonts for their scholarly work) do rather okay with the 
  95. systems they're presently using.
  96.  
  97. > I cannot write my father's name in ASCII, nor my sister-in-law's.  Both of 
  98. them are (in my father's case, were) monoglot Anglophones born into monoglot 
  99. Anglophone families in an English-speaking country.  I _can_ write their names 
  100. in ISO Latin-1, but I _can't_ write half of the place-names of this country!
  101.  
  102. I note that you don't mention WHICH country you're talking about.
  103.  
  104. Of course, I suppose I could buy an island somewhere and name it some new name 
  105. using some bizarre alphabet, and then ask everyone in the world to adjust all 
  106. their systems to support my new alphabet!
  107.  
  108. When most immigrants came to the USA during the latter half of the previous 
  109. century (and the first twenty or so years of this one) a LOT of them changed the 
  110. spelling and writing of their names.  Hey, I can't address a letter to 
  111. Peking/Beijing/whatever from my computer these days using the *REAL* name of the 
  112. city, spelling the name the way the local residents do, either.  Even among 
  113. Western countries, a Parisian sending a letter to London will usually address it 
  114. as "Londres", and most Americans writing to a friend in Cologne, Germany will 
  115. address it that way rather than "Koln" (yeah, I know that they put the 
  116. double-dot over the "o" too).  But you know something?  All of those letters 
  117. WILL be delivered just fine to the recipients in Beijing, London, or Cologne, 
  118. because we NORMALLY deal (and generally reasonably well) with these differences 
  119. of the way that different world peoples call each other's countries.  Not just 
  120. when the names are different, but also when the alphabets are different.  I'm 
  121. sure I could write a letter to someone in an Arab country using a Western, 
  122. non-Arab alphabet and still get it delivered.  Despite the fact that locally 
  123. written letters are doubtless addressed in Arabic.  The post office there can 
  124. handle BOTH (and better, I'm sure, than the US post office could deal with a 
  125. letter addressed to someone HERE in Arabic!).
  126.  
  127. > (The officially approved orthography for Maori puts a macron over
  128. long vowels, like the 'a' in Maori.  There are no macrons in Latin-1.)
  129. Even if my text switched between Latin-1 family members, I _still_
  130. wouldn't be able to write English, because the inverted comma and
  131. and double inverted comma quotation marks are not available, let
  132. alone en dashes and em dashes.
  133.  
  134. Frankly, I think the double quote and apostrophe work just fine for most people. 
  135.  So to say that you "can't write English" is fairly ridiculous.  In fact, what 
  136. will probably happen is that these archaic inconveniences will probably simply 
  137. fade away, due precisely to the fact that they aren't widely supported and most 
  138. people simply couldn't care less.
  139.  
  140. > The *only* character set around in which this functionally-monoglot
  141. Anglophone can write *in English* about the people and places around
  142. him is ISO 10646; even Latin-1 just isn't good enough FOR ENGLISH!
  143.  
  144. Frankly, I think that the great majority of your audience will probably do just 
  145. fine with a "close approximation".  My neighbor and wonderful friend in Paris 
  146. was Russian (in fact, he's on this list... HI Vlad!) but he didn't seem to be 
  147. terribly upset that he couldn't write his name there spelled using the Cyrillic 
  148. characters he'd grown up with.  What's important for most people is that they 
  149. communicate successfully with the people that are important to them, and most of 
  150. the time we do that pretty well.  
  151.  
  152. Frankly, if you told most Americans that they weren't writing proper English 
  153. because they didn't use inverted commas and double inverted comma quotation 
  154. marks, or properly use en dashes and em dashes, I suspect that they'd look at 
  155. you with disbelief as if you were from Mars or something, and tell you to get a 
  156. life.
  157.  
  158. > I also note that Icon (like SNOBOL before it) has been of particular
  159. interest to scholars in the humanities, who would, for example, like
  160. to put Hebrew _and_ Arabic in the same document with English, which
  161. is something you can't do in any ISO 8859 family member, not without
  162. code switching, which is much harder to deal with than Unicode.
  163.  
  164. Obviously scholars who worry about such issues have a variety of specialized 
  165. word processors and other such software to deal with their multi-lingual, 
  166. multi-alphabet requirements (and that's as it should be, probably).  Again, as 
  167. I've mentioned in other posts, there are a whole series of issues that go way 
  168. beyond simply having enough characters in the character set.for "everyone's" 
  169. characters to be there in direct, native mode.  Some languages write 
  170. right-to-left in horizontal rows (Hebrew for example), and some languages write 
  171. top to bottom and then to the left in vertical rows (Japanese for instance).  
  172. Trying to mix these styles in the same document and on the same line is complex 
  173. at minimum and very frustrating for typical users (when using such word 
  174. processors, the simple use of the left and right arrow keys to move the cursor 
  175. certainly doesn't obey the "principle of least astonishment" as it's known to 
  176. most of us!).
  177.  
  178. > There is the pretty obvious point that within Europe, they are going
  179. to *have* to use the new "Euro" sign.  (Why have the Europeans
  180. named their new currency after an Australian mammal?)  That's U+20AC,
  181. and if there's an 8-bit character set that has it, please tell us which.
  182.  
  183. You're being ridiculous, since OBVIOUSLY they have created a NEW character 
  184. EXPRESSLY for the purpose of it being new.  Clearly it's not part of *any* 
  185. previously-existing character set.  (For that matter, it wasn't part of Unicode 
  186. EITHER before they created it and got it added).
  187.  
  188. Even once the character is added officially to the CHARACTER SET, even that 
  189. doesn't really begin to solve the problem.  Because now you have to address the 
  190. issue of how you're going to ENTER it (keyboard?), and how you're going to 
  191. DISPLAY it.  There are (at least!) tens of thousands of fonts out there, and 
  192. *none* of them will have these newly-created characters in them.  I'd hate to 
  193. even think of a TrueType font for "all" of Unicode's characters.  Let alone a 
  194. full set of fonts for all the different type styles and variants.  These fonts 
  195. (for those of us that tend to collect a lot of them) take up too much space on 
  196. hard disks as it is.
  197.  
  198. >>    I can certainly understand and appreciate the problems that the huge 
  199. character sets used in some eastern countries have played for them
  200.  
  201. > Never mind eastern countries.  What about an American businessman writing
  202. to an office in Germany about their operations in Russia?  
  203.  
  204. Straw man.  These communications take place just fine today, without using 
  205. Cyrillic.
  206.  
  207. > What about a
  208. theologian writing in English but quoting Hebrew and Greek frequently?
  209.  
  210. That's of academic interest but (HIGHLY specialized) academic needs should NOT 
  211. force businesses and typical home users to pay more to support the needs of a 
  212. VERY small percentage (at least until you get REAL far away) of other users.
  213.  
  214. > What about an English professor writing a book in modern English about
  215. Old English (we've lost four letters, which can be found in Unicode
  216. but not any 8-bit character set I know of.  Ash _is_ in Latin1, but
  217. eth, thorn, yogh, and wynn are not.)
  218.  
  219. Again, most of us could care less.  He's (or she's) welcome to deal with that 
  220. issue however they like.  The current system has NOT precluded such scholarly 
  221. research up to now, so I don't see why this is such a big issue all of a sudden.
  222.  
  223. > By the way, 16 bits isn't enough; there are proposals already far advanced
  224. in the pipeline for characters to go into Plane 1.
  225.  
  226. And that starts to get even more ridiculous.  As I said, it's a slippery slope 
  227. when you decide that everyone has to be able to support EVERYBODY else's needs, 
  228. even when for most people they are TOTALLY IRRELEVANT.  I would imagine that 
  229. someone has even assigned "official" Unicode character assignments to Klingon 
  230. characters!  So are OTHER people going to start dreaming up their own weird 
  231. alphabets and asking the rest of the world to jump through hoops supporting 
  232. those, too?
  233.  
  234. Frankly, I'm never going to need to read (OR WRITE!) Armenian.  I'm even 
  235. unlikely to read or write most Asian languages, or Hebrew, or numerous others 
  236. which are important to many people SOMEWHERE on the globe.  And frankly, I think 
  237. most of my consulting clients' needs are served just fine by "normal" ASCII.  It 
  238. is ludicrous to expect them to put up with extra cost and complexity in their 
  239. business to support something that they don't need, don't want, and in fact 
  240. would have *no* use for whatsoever.
  241.  
  242. People who DO have special requirements (and I'm not disputing that there ARE 
  243. such persons) should, alternatively, EXPECT to deal with the extra costs and the 
  244. additional hassles that their special needs demand.
  245.  
  246. Gordon Peterson
  247. http://www.computek.net/public/gep2/
  248. Support the Anti-SPAM Amendment!  Join at http://www.cauce.org/
  249.  
  250.